1 实验主义视角的因果推断
没有操纵就没有因果. 我们关心什么, 就把什么作为干预的对象. 例如
- 如果我们关心阿斯匹林的效果, 干预就是是否服用阿斯匹林
- 如果我们关心肥胖对寿命的影响, "干预"就是不同的 BMI (这算一个非良定的干预, 因为它没有显式进行干预, 例如健康饮食、锻炼这样的减少 BMI 的方式)
2 输出结果的记号方式
考虑一个实验有 个实验单元: . 令 为实验组, 为对照组. 对每个单元 , 它来自两个组中的一个, 所以我们只能观察到 中的一个.
- (无干预) 的可能结构不依赖其他单元
- (一致性) 实验组的干预方式唯一且确定
- (SUTVA) 上述两个假设成立.
无干预假设可能会被社交网络或者传染性疾病破坏; 一致性假设可能会被具体的干预的种类影响(例如香烟的品牌, 大学教育的专业等). 我们可以用表格 (潜在结果表, science table) 表示这些结果
|
|
|
|
|
|
|
|
|
|
|
|
定义 因果效应(causal effect) 为 但是我们只能观测到 和 中的一个, 因此直接研究 比较困难. 为此我们首先定义 平均因果效应(ACE, average causal effect) 为
2.1 因果效应 子组 Yule-Simpson 悖论的不存在性
如果我们用二元变量 (取值 ) 定义两个子组, 可以定义子组的因果效应为
它代表两个子集中因果效应分别的平均值. 如果记 , 则 也即每部分的平均值乘以每部分的占比. 如果 , 则 , 符号一致, 这说明 Yule-Simpson悖论 不能发生在因果效应这一统计指标中.
2.2 实验单元定义的微妙之处
实验单元和实际的物理单元可以不一样. 例如, 一个人服用阿斯匹林前头痛, 服用后头不痛, 这里实际上是 两个 实验单元 和 . 因此我们有四个可能的结果: 这里我们观察到两个, 丢失两个. (可能不服药头痛也会消失, 或者服药后头依然痛)
2.3 分配实验组的机制
记 是单元 的是否分配到实验组的标志, 记 , 则 的观测结果是
而与之相对的是缺失结果: